import pandas as pd
import numpy as np

# 导入数据，假设数据文件为 "data.csv"
data = pd.read_csv("data.csv")

# 查看数据基本信息，如列名、数据类型、缺失值等
print("原始数据信息:\n")
print(data.info())

# 处理缺失值：使用均值填充数值型缺失值
data.fillna(data.mean(numeric_only=True), inplace=True) # numeric_only to avoid warning

# 处理缺失值：使用众数填充类别型缺失值 (如果存在类别型特征)
for column in data.select_dtypes(include='object').columns: # 'object' dtype for string columns
    data[column].fillna(data[column].mode()[0], inplace=True)

# 处理重复值：删除重复行
data.drop_duplicates(inplace=True)

# 打印清洗后的数据信息
print("\n数据清洗后的信息:\n")
print(data.info())

print("\n清洗后的数据前几行:\n")
print(data.head())